查看原文
其他

人体姿态估计做到今天,还有哪些「硬核场景」、「性能瓶颈」、「新战场」上的难题?

极市平台 2019-03-28

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击文末“阅读原文”立刻申请入群~


本文来源于知乎话题“人体姿态估计做到今天,还有哪些「硬核场景」无法解决,哪些「新战场」可以开辟,哪些「性能瓶颈」难以逾越?”:


原文链接:

https://www.zhihu.com/question/313946052


二维人体姿态估计(2D Human Pose Estimation)在 COCO 上的 state-of-the-art 结果已经做到将近 80AP,对于大多数日常应用场景,这个精度已经不错了。除了在 loss 或 network 上继续改进,将点数再刷上去,二维人体姿态估计这个问题,还有什么新战场可以开辟?还有哪些「硬核」场景无法解决?还有什么性能上的瓶颈至今难以逾越?


localization error

某位知乎匿名大佬表示一个最直接的回答是,用state-of-the-art跑一下coco,然后用analysis code分析一下结果,就知道还有哪些问题没有解决:

https://github.com/matteorr/coco-analyze/blob/release/COCOanalyze_demo.ipynb


human pose在通往准确率100%的道路上的硬核场景其实一直是known的。


简单分析一下localization error:


Miss:和输入图片的分辨率,以及keypoint点的feature复杂程度有关。要解决这个问题,和解决imagenet那最后3%的error rate没啥区别。没提到的False Positive和False Negative和这个是一个道理。


Jitter: 这个一方面point ground truth的本身就不一定特别靠谱(AP@0.95这个级别),也许网络predict得更好,但也算是jitter了。另一方面gaussian + heatmap的形式也可以商量。


Swap:检测到的点分配给人时出的问题,这个还能再改进改进。Bottom-up的方法解决这个问题百花齐放,PAF,long-middle-short regression,指向人中点的vector等等。这个问题其实和pixel grouping本质是一样的,如果有好的idea,还能用于分割(e.g AE, PersonLab)。但我还是觉得还可以再挖掘挖掘人体的本身的结构特点,感觉如果能用于分割,倒是好发文章,但不一定对人体是最优的。


Inversion: 这个是感受野退化和有些feature确实很含糊(人局部地看也搞不清楚)导致的。我怀疑这个能不能end-to-end的解决。也许需要根据图片加入一步修正。此外可能需要导入一些先验知识。怎么导入先验知识这就又是一个很大的课题了。

当视觉发展到这一步,每个难啃的骨头都会启发一些更大的问题,可以改进的地方当然很多,改不改进得动倒是另一回事XD,期待更多solve the problem,而不是overfitting the test/val dataset的工作出现。(逃

至于落地,部署,平衡准确率和速度中的问题,这个得请公司的人来回答。


crowd pose

上交大@卢策吾老师也提出了一点看法:从COCO刷分的角度看,目前已经很高了。但是还是有一些重要的问题,COCO数据集合没有很好体现。比如说crowd pose拥挤人群这个问题就是,我们来看看COCO拥挤指数分布


COCO的数据分布,横坐标为拥挤指数


我们可以发现绝大部分数据是非常不拥挤。其实拥挤人群是一个非常难,也是经常会遇到的实际问题。我们建了一个新的数据集(crowdpose)如果我们把各个算法在不同的的crowd index上测一下。



我们看到其实随着拥挤程度的提高,各种算法挂得很快。crowd pose 这个问题比起以前的问题(COCO数据),难度明显高出一截:(1)human detector基本挂了,所以top-down的路线会遇到很多麻烦 (2)part之间相互干扰特别大,bottom-up路线会在合并阶段遇到很多阻碍。我们从神经网络角度看,一个干扰part(别人的part),从appearance上和structure上都很难被分辨出来。所以,要解决这个问题一定要新的思路,我感觉这个问题可能要做一定时间才能被搞定。


我们SJTU MVIG提出了一个方案(已被CVPR 2019录取),也算是抛转引玉了,感觉要推到COCO那种80mAP多那种还是很难,还需要大家一起来解决。下面是我们的砖


论文在这里:https://arxiv.org/abs/1812.00324

代码在这里:https://github.com/MVIG-SJTU/AlphaPose


作为alphapose的升级版本,大家有空的话,麻烦点个赞。比起前面方法提高还是比较明显的。


Crowd pose数据集上比较


更多细节请关注极市二条解读:

AlphaPose升级!上海交大卢策吾团队开源密集人群姿态估计代码


对这个问题你有什么独特见解,欢迎留言区评论讨论交流,讨论不限于 2D Pose,也欢迎做 3D Pose 的同学/老师参与讨论。


极度欢迎工业界人士参与讨论。


ps.CVPR2019 accepted list已经放出,极市已将目前收集到的公开论文总结到github上(目前已收集94篇),后续会不断更新,欢迎关注,也欢迎大家提交自己的论文:

https://github.com/extreme-assistant/cvpr2019




*延伸阅读

CVPR2019 | 6D目标姿态估计,李飞飞夫妇等提出DenseFusion

CVPR2019 | 微软、中科大开源基于深度高分辨表示学习的姿态估计算法

【论文整理】CVPR2018 人体姿态相关


小Tips:如何查看和检索历史文章?

有不少小伙伴提问如何号内搜文章,其实很简单,在“极市平台”公众号后台菜单点击极市干货-历史文章,或直接搜索“极市平台”公众号查看全部消息,即可在如下搜索框查找往期文章哦~



ps.可以输入CVPR2019/目标检测/语义分割等等,快去探索宝藏吧~~



每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击左下角“阅读原文”立刻申请入群~

觉得有用麻烦给个好看啦~  

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存